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基于 深度 循环 网 络 的 声 纹 识别 方法 研究 及 应 用 
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摘 要 : 声 纹 识别 是 当前 热门 的 生物 特征 识别 技术 之 一 ， 能 够 通过 说 话 人 的 语音 识别 其 身份 。 针 对 声 纹 识别 技术 进行 
了 研究 ， 提 出 了 一 种 基于 卷 积 神经 网 络 (CNN) 和 深度 循环 网 络 (RNN) 的 声 纹 识别 方案 CDRNN, CDRNN 结合 CNN 
和 RNN 的 优势 ， 用 于 移动 终端 声 纹 识 别 应 用 。CDRNN 将 说 话 者 的 原始 语音 信息 经 过 一 系列 的 处 理 并 生成 一 张 二 维 语 
谱 图 ， 利 用 CNN 长 于 处 理 图 像 的 优势 从 语 谱 图 中 提取 语音 信号 的 个 性 特征 ， 这 些 个 性 特征 再 输入 到 Deep RNN 中 完 
成 声 纹 识别 ， 从 而 确定 说 话 者 的 身份 。 实 验 结果 表明 了 CDRNN 方案 能 够 获得 比 GMM-UBM 等 其 他 方案 更 好 的 识别 
准确 率 。 
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Abstract: Voiceprint recognition was one of the most popular biometric identification technologies, which could identify a 


speaker based on his voice. This paper proposed CDRNN, a voiceprint recognition scheme. CDRNN combined CNN and Deep 


RNN into a unified model and took advantages of both of them. For CNN was good at extracting characteristics from images, it 


could generate several spectrograms based on the original voice signal at first. And then, CNN would extract unique features 
from these spectrograms. . Finally, Deep RNN would output the speaker's identification based on these unique features. 
Simulation results show that CDRNN performs better than GMM-UBM and DNN-based approach. 
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需求 和 前 景 包 。 

声 纹 识别 技术 的 研究 已 有 不 少 ， 早 期 人 们 对 说 话 人 识别 的 

随 着 移动 互联 网 的 莲 勃 发 展 和 智能 手机 的 不 断 普 及 ， 便 捷 ” 研究 工作 聚集 在 特征 参数 提取 和 模型 匹配 这 两 方面 。 从 声学 特 

的 网 络 交 互 已 成 为 人 们 上 日常 生活 中 不 可 或 缺 的 活动 。 在 网 络 环 下 参数 提取 方面 来 看 ， 模 拟 听 觉 特 征 线 中、 线性 预测 Clinear 

境 下 ,如 何 能 准确 确认 交互 方 的 身份 成 为 日 益 重 要 的 一 个 问题 。 predictive coefficients, LPC ) 系 数 、 感 知 线性 预测 系数 (perceptual 

相 比 于 传统 的 账号 密码 方案 ， 基 于 人 们 自身 具有 的 生物 特 linear predictive, PLP) Bl 和 梅 尔 频率 倒 谱系 数 (Mel frequency 

征 趾 的 身份 认证 机 制 有 着 更 为 安全 可 靠 的 优势 。 人 的 生物 特征 cepstral coefficients, MFCC) 39 等 参数 先后 被 人 们 提出 。 而 对 

例 诸 如 声 纹 、 指 纹 、 掌 纹 、 视 网 膜 、 人 脸 等 ， 对 于 每 个 人 而 言 于 模型 匹配 ， 语 音 识 别 技术 被 用 于 人 的 声 纹 识 别 中 。 例 如 动态 

具有 唯一 性 ， 并 且 还 具有 稳定 、 不 易 被 仿造 等 特点 ， 因 此 得 到 时间 规整 dynamic time warping, DTW) 品 和 矢量 量化 〈vector 

了 学 术 界 和 产业 界 越 来 越 多 的 关注 。 其 中 声 纹 识 别 技术 是 根据 quantization, VQ) 四， 以 及 人 工 神 经 网 络 〈artificial neutral 
声音 对 说 话 人 进行 识别 ， 故 也 称 为 说 话 人 识别 。 与 指纹 、 视 网 network, ANN) [58 等 技术 。 

膜 等 生物 特征 相 比 ， 声 纹 识别 能 够 进行 远程 认证 ， 使 用 成 本 低 高 斯 混合 模型 (Gaussian mixture model, GMM) 由 于 具有 

是 易 用 性 高 。 并 且 智 能 手机 的 全 面 普及 ， 使 得 语音 的 采集 也 非 ” 简单 可 靠 和 性 能 稳定 的 优点 , 成 为 声 纹 识 别 的 关键 方法 之 一 四。 
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常 方便 , 进行 认证 时 用 户 只 需 录 制 一 段 语音 即 可 完成 身份 认证 。 ”基于 GMM, Reynolds 等 人 则 提出 了 GMM-UBM 模型 (Gaussian 
因此 声 纹 识别 技术 在 金融 、 网 络 交易 、 国 防 等 领域 有 着 广泛 的 mixture model-universal background model)， 从 而 将 声 纹 识 别 推 
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男 ， 硕 士 研究 生 ， 主 要 研究 方向 为 移动 大 数据 . 
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向 实际 应 用 09。 


T 


近年 来 ， 随 着 深度 学 习 技术 的 发 展 并 在 图 像 处 理 、 语 音 识 


别 领域 取 得 了 较 好 的 效果 3， 如 Palaz 等 人 0 分 析 了 卷 积 神 
经 网 络 (convolutional neural networks, CNN) 用 于 语音 识别 并 
取得 了 较 好 的 效果 。 受 此 启发 ， 一 些 研究 也 开始 将 深度 学 习 技 
术 应 用 于 说 话 人 识别 054741。Richardson 等 人 05 将 深度 神经 网 络 
(deep neutral networks, DNN) 用 于 说 话 人 的 识别 ， 通 过 构建 
个 基于 瓶颈 特征 Cbottleneck features, BNFs) 的 i-vector 系统 ， 


从 语音 信号 中 提取 帧 级 别 (frame-leveD 的 特征 。 


RAK, F: 基于 深度 特 
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络 模型 的 参数 越 多 ， 表 明 它 具有 更 强 信息 计算 和 存储 能 力 ， 可 


以 完成 更 为 复杂 的 任务 。 一 方面 可 以 通过 增加 隐藏 层 的 数量 ， 


从 网 络 结构 的 深度 方面 增加 网 络 参数 ， 也 可 以 通过 在 每 个 隐藏 


的 网 络 参数 。 一 般 而 言 ， 增 加 隐藏 


屋 中 增加 更 多 的 神经 元 ， 从 增加 网 络 结构 的 宽度 方面 获得 更 多 


层 的 数量 更 具 优势 ， 在 增加 
参数 的 同时 和 能 够 使 得 网 络 具 有 更 强 的 特征 变换 能 力 。 图 2 是 


文献 [16] 利 用 


GMM 和 DNN， 在 具有 混 响 的 远程 通话 环境 下 ， 


通过 方言 的 语 


音 特征 来 识别 方言 。 文 献 [17] 利 用 语音 的 多 元 音素 (senone)， 结 


合 DNN 和 简化 高 斯 概率 线性 鉴别 分 析 对 一 段 短 


语音 信号 进行 


建 模 并 识别 说 话 人 。 由 于 语音 信息 是 一 段 连续 的 具有 上 下 文 关 
联 的 信号 ， 而 循环 神经 网 络 (recurrent neural networks, RNN) 


擅长 对 序列 信号 的 处 理 ， 因 此 文献 [18，19]RNN 


引入 对 说 话 者 


进行 身份 识别 。 文 献 [18] 利 用 CTC 分 类 技术 ， 对 输入 的 语音 序 
列 进行 分 类 并 输出 一 段 语 音 的 K 音素 序列 分 布 Cphoneme 


sequence )， 通 过 对 音素 序列 分 布 识别 说 话 人 。 而 文献 [19] 则 进 
一 步 扩 大 了 RNN 的 应 用 场景 ， 将 长 短 时 记忆 单元 (long short- 


term memory, LSTM) 5| A, 基于 语音 信号 的 上 下 文 关联 特征 ， 


对 大 规模 的 语音 数据 进行 训练 和 识别 。 此 外 ， 也 有 一 些 研究 工 
作 将 CNN 和 RNN 结合 来 构建 神经 网 络 。 如 文献 [22] 利 用 CNN- 
RNN 完成 多 标签 图 片 分 类 、Fan 等 人 [3] 将 其 用 于 基于 视频 的 情 
绪 感 知 , 文献 [24] 则 用 于 运动 视频 的 事件 检测 等 , 但 是 用 来 进行 


声 纹 识别 的 工作 几乎 没有 。 


尽管 已 有 不 少 声 纹 识 别 的 研究 工作 ， 但 这 些 工作 在 环境 噪 


声 、 信 道 失 配 、 假 冒 闻 入 、 短 语音 等 方面 仍然 面临 着 很 多 困难 


和 挑战 特别 是 对 于 卷 积 神经 网 络 CNN 和 循环 神经 网 络 RNN, 
它们 在 建 模 能 力 实际 上 各 有 所 长 。 例 如 CNN 擅长 图 像 特征 提 
取 , 而 RNN 网 络 在 时 序 建 模 上 更 具 优 势 。 因此 , 本 文 结合 CNN 
和 RNN 的 优点 , 提出 了 一 种 基于 CNN 和 Deep RNN 的 声 纹 识 


于 声 纹 识别 。 


别 机 制 CCDRNN )， 同 时 将 CNN 和 RNN 应 用 


CDRNN 首先 将 说 话 人 的 原始 语音 转 为 语 谱 图 , 再 


利用 CNN 的 


结构 优势 从 语 谱 图 中 自动 提取 出 说 话 人 的 个 性 特征 ， 随 后 将 这 


些 个 性 特征 输入 到 deep RNN 中 完成 分 类 ， 在 此 
现 说 话 人 的 声 纹 识别 。 


1 MARE 


基础 上 实现 实 


人 工 神 经 网 络 是 一 个 模仿 生物 神经 网 络 的 结构 及 功能 的 系 


统 ， 由 大 量 人 工 神经 元 组 成 。 多 个 神经 元 排 成 一 列 从 而 构成 神 


经 层 ， 多 个 神经 层 则 组 成 人 工 神经 网 络 。 图 1 是 一 个 简单 人 工 


神经 网 络 的 示意 。 左 侧 一 列 神经 元 为 输入 层 ， 接 收 外 部 信号 或 


数据 ; 右 侧 一 列 神经 元 为 输出 层 ， 输 出 系统 的 处 理 结果 ， 两 者 


之 间 为 隐藏 层 ， 不 为 外 部 所 观察 ， 完 成 信息 的 处 理 和 转换 。 


1.1 深度 神经 网 络 


深度 神经 网 络 DNN 则 是 包含 多 个 隐藏 层 的 神经 网 络 。 网 


输入 层 隐藏 层 


个 深度 神经 网 络 ， 该 网 络 中 含有 3 个 隐藏 层 。 


输出 层 


图 1 人 工 神经 网 络 示 意 


E 


1.2 STRE IR 


图 2 深度 神经 网 络 示意 


卷 积 神经 网 络 CNN 是 深度 学 习 领 域 重 要 的 网 络 模型 之 一 ， 
能 在 图 像 处 理应 用 上 取得 显著 的 效果 。 CNN. 是 一 种 多 层 的 前 馈 
神经 网 络 一 般 由 若干 个 卷 积 层 (convolutional layer) 和 池 化 层 


(pooling layer) 交替 构 成 。 如 图 3 所 示 ，2 个 卷 积 层 和 2 个 池 
化 层 交 蔡 构 成 了 一 个 简单 的 卷 积 神经 网 络 。 


E SHE 池 化 层 


区 -是 一 呈 1 T TA 


输出 层 


图 3 CNN 网 络 示意 


a) 卷 积 层 。 在 全 连接 的 DNN 中 , 隐藏 层 的 任何 一 个 神经 元 


nk 


= 


进行 连接 。 


b) 池 化 层 。 卷 积 层 用 于 从 输入 信 


要 和 前 一 层 所 有 神经 元 关联 。 但 在 CNN 中 ， 隐 藏 层 的 一 个 
经 元 仅仅 与 上 一 层 中 所 有 神经 元 构成 的 二 维和 矩阵 中 的 小 区 域 


息 中 提取 个 性 特征 ， 通 常 


会 输出 维度 非常 高 的 特征 ， 后 续 不 便 处 理 。 此 时 使 用 池 化 层 进 
行 降 维 ， 简 化 卷 积 层 的 输出 特征 。 同 时 使 用 池 化 层 ， 输 入 图 像 
具有 旋转 、 平 移 和 伸缩 的 不 变 特性 。 使 用 最 多 的 是 最 大 池 化 技 


ZR (max pooling)， 最 大 池 化 将 输入 


[| 


像 划 为 多 个 矩形 区 域 ， 分 
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别 对 每 个 区 域 提取 最 大 值 。 
1.3 ”循环 神经 网 络 


噪声 及 其 他 影响 ， 
必须 对 其 进行 预 加 重 、 


与 前 馈 神 经 网 络 不 同 ， 循 环 神经 网 络 RNN 则 是 一 种 反馈 
神经 网 络 。 RNN 的 输出 结果 不 但 与 当前 输入 信息 以 及 网 络 权 习 


pi 


里 操作 。 对 语音 数据 采样 
的 是 对 信和 号 高 频 部 分 加 重 ， 减 4 


等 : 基于 深度 循环 
寻 此 不 能 直接 对 


ChinaXiv 合 作 期 和 
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原始 的 语音 信号 进行 处 理 ， 


量化 后 ， 


分 帧 、 加 窗 以 及 端点 检测 等 信号 的 预 处 


首先 进行 预 加 重 处 理 


， 其 


\ 噪 声 影响 ， 使 语音 信和 号 频谱 乎 


有 关 ， 还 与 之 前 信息 输入 相关 。 因 此 ，RNN 隐藏 层 中 的 神经 元 。 坦 化 : 随后 将 一 段 长 的 语音 数据 划分 为 若干 个 小 片段 ， 即 为 分 
相互 连接 ， 同 时 隐藏 层 的 输入 即 包括 当前 输入 层 的 输出 ， 也 包 贞 。 这 些 短语 音信 号 能 够 保持 短 时 平稳 状态 ， 故 可 利用 平稳 过 
括 前 一 时 刻 隐 藏 层 的 输出 。 图 4 表示 了 一 个 简单 的 RNN 网 络 。” 程 方法 处 理 ; 分 帧 带 来 了 信号 的 截断 效应 ， 为 了 使 截断 处 的 信 
模型 号 能 平滑 过 渡 ， 需 要 通过 加 窗 操作 实现 ， 最 后 对 语音 信号 进行 
端点 检测 ， 目 的 是 去 除 信号 中 的 静音 片段 ， 保 留 有 效 的 语音 
输出 层 段 。 


图 4 RNN 网 络 示意 


TE t 时刻，xz 为 输入 向 量 ， 万 为 隐藏 状态 向 量 的 ，y” 为 输出 
向 量 ， 则 图 4 表示 的 一 个 单 隐藏 层 的 RNN 可 定义 为 
h, = f Wax, + Wh, ) (1) 
= g(W,h,) Q) 
其 中 : Wi 是 输入 层 与 隐藏 层 之 间 的 权重 矩阵 w，Wirn 是 隐藏 层 
oo W, Wry WÈ A E n eh Js RS BATUR 
阵 v。 通 常情 况 下 , 隐藏 层 的 激活 函数 有 sigmoid tanh 和 ReLU。 
而 输出 层 的 激活 函数 一 般 是 线性 的 或 者 是 softmax。 
从 理论 上 ， IN 能 够 构建 长 时 间 间 隔 依赖 (long-term 


于 梯度 爆炸 等 问题 ， 仍 然 只 能 学 习 短 周期 
的 依赖 关系 ,因此 LSTM 结构 被 引入 到 RNN 中 PR9。LSTM-RNN 
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( 语 谱 图 ， 标 签 值 
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5 基于 CDRNN 的 声 纹 识 别 流程 


2) 生成 语 谱 图 


利用 LSTM 神经 元 取代 传统 的 网 络 神经 元 ， 即 使 用 不 同类 型 的 语音 信号 的 频谱 实际 上 是 随时 间 变 化 的 二 维 图 像 ， 即 语 谱 
门 操控 信息 流 。 通 过 这 些 不 同类 型 的 门 结构 ，LSTM 神经 元 可 ”图 ， 其 横 轴 表示 时 间 ， 纵 轴 表 示 信 和 号 频率 成 分 。 语 谱 图 能 够 动 
以 决定 何 时 记 住 输入 信息 ， 何 时 忘记 该 信息 ， 何 时 输出 信息 。 态 显 示 不 同时 刻 、 不 同 频率 分 量 的 大 小 ， 它 承载 的 信息 量 远 大 
2 CDRNN 设计 Vido dii a l 
而 经 过 语音 信号 的 预 处 理 后 ， 原 始 语音 数据 被 划分 为 
对 于 声 纹 识别 应 用 ， 通 常 是 说 话 人 给 出 一 段 语音 数据 ， 通 Ko-30n KERIA RRAN EEOAE 
过 对 语音 数据 进行 处 理 ， 提 取出 语音 数据 的 特征 〈 即 声 纹 ) 并 ”的 特征 ， 将 丢失 频 域 上 的 信息 ， 因 此 本 文 将 直接 生成 语音 信 
对 其 进行 分 类 匹配 ， 从 而 确定 该 语音 数据 对 应 的 说 话 人 的 身份 的 语 谱 图 ， 保 留 信号 的 频 域 信 息 ， 用 于 后 续 处 理 。 
ID。 3) 特征 提取 及 分 类 
2.4 声 纹 识别 流程 特征 提取 是 根据 语 谱 图 的 信息 ， 提 取 说 话 人 声音 的 个 性 特 
图 5 显示 了 一 个 基于 CDRNN 的 声 纹 识别 系统 的 流程 ， 包 ” 征 向 量 参数 ， 而 分 类 则 是 实现 对 该 说 话 人 语音 的 建 模 。 通 过 一 
括 三 个 主要 的 功能 模块 ， 即 语音 信号 的 预 处 理 、 语 谱 图 的 生成 ” 个 神经 网 络 可 以 统一 信息 的 特征 提取 和 分 类 , 本 文 则 利用 CNN 


模块 和 特征 提取 和 分 类 模块 。 其 中 特征 提取 和 分 类 模块 是 整个 
流程 中 的 核心 模块 ， 使 用 的 神经 网 络 模型 结合 了 CNN 和 Deep 
RNN 网 络 的 优点 ,利用 其 优势 互补 的 能 力 ， 实现 说 话 者 声 纹 识 
别 的 任务 。 
D 语音 信号 的 预 处 理 
于 人 们 发 生 器 官 的 物理 特性 的 差异 ， 使 得 产生 的 语音 信 
自身 的 物理 特性 不 一 ， 而 外 界 环 境 因 素 给 语音 的 录制 带 来 J 


AL 


DE 


qn 


擅长 对 图 像 进行 处 理 
CNN 网 络 和 RNN 
语 谱 图 中 提取 声 纹 的 特征 参数 ， 


E. RNN 在 时 序 建 模 上 具有 优势 的 特点 , 将 


网 络 统一 


进行 时 序 建 模 。 


2.2 语 谱 图 生成 


传统 提取 语音 


同时 ， 
征 参数 映射 到 可 分 离 空间 。 


US E 


为 一 个 网 络 模型 。 用 CNN 
通过 RNN 


网 络 从 
网 络 对 特征 信息 
网 络 还 能 够 将 特 


构 的 RNN 


村 征 通常 是 首先 


里 叶 变 换 ， 然 


对 信和 号 进行 传 
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后 使 用 滤波 器 提取 特征 ， 会 导致 频 域 信 
区 域 的 语音 信息 损失 更 为 严重 。 为 避免 频 域 信息 的 损失 ， 
CDRNN 将 直接 生成 语音 信息 的 语 谱 图 。 将 该 二 维 图 像 输 入 到 
神经 网 络 进行 处 理 ， 从 中 提取 出 语音 信号 的 个 性 特征 向 量 。 
语 谱 图 的 生成 过 程 如 图 6 所 示 。 首 先 得 到 采样 量化 后 的 语 


息 的 损失 ， 特 别 是 高 频 


lm 


了 传 里 叶 变换 ， 再 计算 语音 的 能 量 
谱 密度 ， 通 过 取 对 数 和 灰 度 图 映射 ， 将 获得 语音 信号 对 应 的 语 
谱 图 


一 一 | 传 里 叶 变 换 


语 谱 图 


灰 度 图 映射 


图 6 语 谱 图 生成 过 程 示意 


于 输入 至 神经 网 络 的 语 谱 图 大 小 固定 ， 但 不 同 说 话 者 语 
音 长 度 不 同 。 因 此 要 确保 不 同 说 话 者 能 生成 相同 大 小 的 语 谱 图 ， 
需要 将 说 话 者 的 语音 信号 划分 为 相等 时 长 的 片段 ， 从 而 生成 相 
同 尺 寸 的 语 谱 图 。 例 如 两 个 说 话 者 A 和 B，A 的 语音 信号 总 长 
度 是 10 分 钟 ，B 产生 15 分 钟 的 语音 信号 。 假 设 采样 频率 为 16 
KHz， 语 音 片 段 时 长 为 18， 语 谱 图 帧 长 设 为 5312， 则 A 和 了 B 将 
分 别 产生 600 和 900 个 语音 片段 ， 并 分 别 对 应 600 张 语 谱 图 和 
900 张 语 谱 图 。 通 过 处 理 , 每 个 说 话 者 都 会 产生 各 自 的 语 谱 图 ， 
将 原 对 语音 的 识别 转换 成 对 二 维 语 谱 图 的 识别 。 
23 ”网络 模型 设计 

完成 语 谱 图 的 生成 后 ， 语 谱 图 将 输入 到 神经 网 络 中 进行 特 
征 提 取 和 分 类 , 本 文 分 别 通过 CNN 和 DeepRNN 网 络 实现 语音 
言 号 的 个 性 特征 提取 及 分 类 。 
2.3.1 CNN 网 络 设计 

M RN ER ns 
是 一 张 二 维 灰 度 图 像 ， 图 像 的 各 种 属性 反映 了 说 话 者 语音 信号 
的 各 种 特征 信息 . 因此 将 语 谱 图 作为 输入 ， 由 CNN 网 络 自动 
从 输入 的 二 维 灰 度 语 谱 图 中 提取 出 语音 片段 的 个 性 特征 。CNN 
包含 多 个 卷 积 层 和 池 化 层 ， 其 中 卷 积 层 能 够 提取 语音 片段 的 不 
同 特征 ， 池 化 层 则 可 以 对 输入 的 二 维 灰 度 图 进行 平移 、 缩 放 或 


H 


XX, F: 


而 一 个 卷 积 池 化 单元 实际 上 是 一 个 卷 积 层 -ReLU 层 - 
MaxPool 层 - Batch Normalization 层 的 结构 ， 如 图 8 所 示 。 其 中 
ee A 而 MaxPool 为 池 化 函数 。 为 了 使 得 网 络 能 


够 快速 收敛 ， 还 通过 Batch Normalization 算法 加 速 网 络 的 训练 
速度 。 
= = = 
卷 积 层 ReLU 层 MaxPooling 层 Batch Normalization 层 
Els 卷 积 池 化 单元 
需要 强调 的 是 ， 对 于 卷 积 池 化 单元 ， 其 中 的 池 化 层 在 进行 


池 化 操作 时 ， 仅 在 频率 《对 应 于 语 谱 图 高 度 ) 上 做 池 化 ， 而 没 
有 在 时 间 (对 应 于 语 谱 图 的 宽度 ) 上 进行 池 化 。 这 主要 是 在 时 
间 上 池 化 很 可 能 导致 语 谱 图 中 时 序 信息 丢失 ， 因 此 只 在 频率 上 
对 信号 进行 池 化 。 此 外 ， 卷 积 池 化 单元 和 特征 映射 的 数量 、 特 
征 映射 数量 、 卷 积 核 大 小 和 步 长 乃至 池 化 区 域 大 小 同样 需要 根 
据 具 体 问题 和 数据 集 通 过 实验 进行 设置 


* 时 间 轴 
time 为 了 


< 一 证 T - [E ER VEINTE ON L— ] RNN 


[ Es==== 


BISHER ABE 


C 个 Fx7 的 特征 向 量 
1 


rccocccocccccocccccoccccccccoco 
T m 


eoo 


时 间 轴 
图 9 CNN 网 络 输出 作为 RNN 网 络 输入 


2.3.2 Deep RNN 网 络 设计 
当 CNN 网 络 对 语 谱 图 的 二 维 灰 度 图 像 处 理 后 ， 其 输出 作 
为 Deep RNN 的 输入 完成 进一步 的 时 序 建 模 。Deep RNN 实际 
上 是 由 若干 RNN 的 隐藏 层 进行 琶 加 而 构成 ， 前 一 隐藏 层 的 输 
出 作为 下 一 隐藏 层 的 输入 。 相 比 于 普通 隐藏 层 中 神经 元 相互 独 


其 他 变形 操作 后 ， 仍 然 产 生 相 同 池 化 后 特征 ， 从 而 减少 频谱 变 
化 导致 的 影响 。 

CDRNN 机 制 中 ，CNN 结 
元 构成 ， 如 图 7 Bras, 


各 部 分 实际 是 由 nn 个 卷 积 池 化 单 
其 中 需要 根据 实际 情况 设 定 。 


CNN 结构 
人 


Fortet- c-e--e--p-e-e- 


卷 积 池 化 单元 卷 积 池 化 单元 PRELAT 


图 7 CNN 网 络 结构 


XL, Deep RNN 隐藏 层 中 包含 的 神经 元 之 间 则 有 具有 连接 。 

I)Deep RNN 输入 层 设计 

张 二 维 灰 度 图 像 〈 语 谱 图 ) 输入 至 CNN 网 络 后 , 将 由 n 
个 卷 积 池 化 单元 进行 处 理 ， 处 理 后 的 输出 实际 上 是 C 张大 小 为 
FXT 的 小 语 谱 图 , 其 中 C 表示 特征 映射 的 数量 , FORI T 则 分 别 
是 输出 的 小 语 谱 图 的 高 度 和 宽度 。 可 以 用 一 个 序列 来 表示 CNN 
网 络 的 输出 ， 即 S=/S; S» 5; Sz]，1 三 i 二 7， 而 序列 中 的 元 素 
5; 则 是 一 个 大 小 为 CXF 的 向 量 , 也 就 是 说 CNN 将 输出 了 个 大 
小 为 CXF 的 向 量 , 这 些 向 量 作为 作为 RNN 网 络 的 输入 , 它们 
之 间 有 一 个 对 应 关系 ， 即 CNN 网 络 输出 序列 S; E73 RNN 在 i 
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时 刻 的 输入 。 也 就 是 说 ， 


RNN 在 i 时 刻 的 输入 是 一 个 CXF 9E 


的 向 量 ， 它 的 步 长 则 等 于 7。 图 9 显示 了 CNN 的 输出 序列 和 


RNN 输入 之 间 的 对 应 关系 。 


时 刻 1 -1 的 输出 时 刻 1 的 输出 时 刻 1 +1 的 输出 时 刻 t+n 的 输出 
$ f $ f 
输出 层 四 m|— li 一 一 |--------- E 
介 T : 1 
4 E Deep RNN 
U 1 1 
隐藏 层 " — 一 一 由 |--------- - [ 
T T 1 
输入 层 L —i —— com— Pa [ 
] u U U 
时 刻 1-1 的 输入 时 刻 [ 的 输入 时 刻 1 +1 的 输入 时 刻 1 +n 的 输入 


2) RNN 隐藏 层 设计 
Deep RNN 是 由 多 个 RNN 


图 10 Deep RNN 网 络 结构 示意 


序列 作为 下 一 层 的 输入 序列 ， 


维 登 起 来 的 , 其 中 每 一 层 的 输出 
其 结构 如 图 10 所 示 。 和 传统 的 神 


经 网 络 相 比 ，Deep RNN 的 特 


馈 循环 。 对 于 实际 问题 ，Deep RNN 
的 RNN 如 LSTM-RNN 或 GRU-RNN,， 


中 缺乏 长 
一 段 时 | 
的 结构 时 要 考虑 两 个 参数 ， 即 


mj 


点 是 在 每 一 层 都 会 有 时 间 上 的 反 
中 的 隐藏 层 通常 使 用 改进 
它们 解决 了 基本 RNN 


期 依赖 关系 的 问题 ， 这 可 以 使 神经 网 络 能 够 记 住 更 长 
跨度 的 输入 数据 。 对 于 Deep RNN 网 络 ， 设 计 隐 藏 层 


| 


隐藏 层 层 数 的 多 少 和 隐藏 层 中 神 


经 元 的 


节点 数量 ,这 两 个 参数 同样 需要 依据 实际 需求 进行 设 定 。 


一 般 而 言 ， 在 相同 参数 个 数 的 倾向 下 下 ， 设 置 更 多 的 层 数 比 增 


加 每 层 更 多 的 节点 数 能 
3) Deep RNN 输出 层 


够 获得 更 好 的 效果 。 


Deep RNN 的 输出 


说 话 人 的 人 数 。 
2.3.3 网 络 模型 训练 


层 比较 简单 , 就 是 使 用 
器 进行 分 类 ， 通 过 softmax 分 类 ， 使 得 输出 层 的 节点 数 对 应 于 


一 个 softmax 分 类 


CDRNN 模型 的 训练 采用 
有 的 数据 打上 标签 ， 


语音 信号 生成 的 语 谱 图 序列 为 


言 号 生成 的 语 谱 图 数量 ， 则 第 7 张 语 谱 图 Si 对 应 着 一 个 二 维 算 


阵 , 给 其 一 个 标签 值 为 i-1， 这 
具有 相同 的 标签 ， 
标签 i-1 则 构成 一 个 训练 样本 


然后 把 数据 和 所 对 应 的 标签 作为 训练 集 。 
假设 待 训练 的 语音 信号 为 个 


而 此 标签 则 可 标识 该 说 话 人 的 JP，S 和 它 的 


了 监督 学 习 的 方法 ， 首 先 要 对 所 


天 个 说 话 人 产生 )， 第 i 个 
Si- (Si, S, … SP), m 为 该 语音 


IT 


意味 着 同一 说 话 人 的 所 有 语 谱 图 


CSi, i-1), 


训练 样本 进行 训练 前 ， 


内 ， 从 而 去 除数 据 的 单位 限制 ， 


还 需 对 样本 数据 进行 标准 化 或 归 一 
化 处 理 ， 即 将 数据 按 一 定 比例 缩放 ， 将 数据 映射 为 一 个 小 区 间 


将 数据 转换 为 无 量 纲 数值 。 同 


RAK, F: 基于 深度 循环 网 


多 分 类 的 任务 。CDRNN 选择 的 代价 函数 是 交叉 灶 函 数 ， 同 时 


利用 
2.3.4 网 络 模型 识别 


T BP 及 BPTT 算法 计算 梯度 , 从 而 完成 样本 数据 的 训练 。 


网 络 模型 对 语音 数据 集 进行 训练 ， 训 练 完成 了 即 可 用 于 声 


纹 的 识别 。 进 行 识 别 时 ， 首 先 说 话 人 产生 一 段 测试 语音 信号 ， 
该 信号 经 过 预 处 理 后 生成 了 NN 张 语 谱 图 ， 这 些 语 谱 图 同样 要 进 
行 数据 标准 化 ， 然 后 再 依次 将 数据 标准 化 后 的 语 谱 图 输入 到 
CDRNN 网 络 模型 中 ， 模 型 最 终 回 给 出 每 一 张 语 谱 图 所 对 应 的 
说 话 者 的 身份 ID 。 显然 , V 张 语 谱 图 会 输入 W 个 说 话 者 的 ID， 
而 测试 语音 对 应 的 声 纹 所 属 的 说 话 人 ID 则 被 认为 是 这 A ID 
中 出 现 次 数 最 多 的 那个 ID。 

3 ”仿真 实验 

3.1 实验 设置 


实验 平台 采用 
TensorFlowPH, 7r TensorFlow 平台 


练 好 的 模型 可 以 移植 到 移动 手机 上 


Google 


pu 


IHI 
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上 对 样本 数据 进行 训练 ，; 
， 移 动手 机 则 可 对 说 话 者 进 


通过 训练 好 的 模型 进行 声 纹 的 识别 。 


对 样本 数据 


行 语音 采样 


GPU， 显 存 大 小 为 24G 。 
3.1.1 语音 数据 集 


进行 训练 的 数据 为 DELLC4130 服 务 器 ,配置 了 4 块 英 伟 达 Tesla 


实验 所 使 用 的 语音 数据 是 从 


实 环境 中 进行 采集 的 。 通 关 


过 
智能 手机 对 40 个 不 同 的 学 生 各 自 录制 了 10~20 分 钟 的 语音 数 
据 。 由 于 环境 因素 的 影响 ， 采 集 的 语音 信号 中 不 可 避免 的 包含 


了 背景 噪声 数据 ,每 个 学 生 的 语音 数据 被 划分 为 1s 时 长 的 语音 
片段 ， 这 些 语 音 片段 的 前 80% 的 数据 作为 训练 数据 集 用 于 网 络 


模型 训练 ， 而 后 20% 的 数 ] 
此 外 ， 


模型 进行 测 实验 证 。 
识别 正确 的 语音 
的 比值 。 

3.1.2 语 谱 图 参数 


语 谱 图 后 将 得 到 


对 每 个 语音 片段 生成 语 谱 图 时 ， 
256 个 像素 点 ， 这 对 应 语 谱 图 高 度 。 实 际 上 实 


居 则 作为 测试 数据 集 对 训练 后 的 网 络 
定义 识别 率 作为 性 能 评价 
段 的 数量 与 测试 数据 集中 语音 片段 的 总 数量 


指标 ， 即 


陆 长 设 为 512， 那 么 生成 


验 时 仅 取 了 前 面 的 128 个 像素 点 ， 


姑 为 语音 信号 频率 一 般 在 


300-3000Hz 
另 一 参数 帧 移 设置 为 160，! 
的 语音 片段 将 产生 16K 个 采样 点 ， 


谱 图 宽度 为 100 个 像素 点 。 因 此 最 终生 成 的 语 谱 


x 间 ， 在 区 间 外 的 信号 是 噪声 信号 ， 可 以 忽略 。 而 
于 采样 频率 是 16KHz， 则 1s 时 长 


故 能 得 到 100 帧 ， 意 味 着 语 


图 大 小 为 128 


宽度 为 100 个 像素 点 。 


时 ， 数 据 标 准 


化 后 还 能 够 提高 模型 收敛 速度 和 准 
用 机 器 学 习 中 常用 的 Min-Max Ti 


。 本 文采 
佳 化 机 制 对 二 维 灰 度 图 像 的 


每 个 像素 进行 标准 


化 ,数据 标准 


化 后 ,像素 点 取 值 区 间 为 [0,1]。 


经 过 给 样本 数据 打 标 签 和 数据 标准 化 后 ， 则 可 开始 对 样本 


数据 进行 训练 。 对 多 个 样 


本 语音 信号 训练 的 过 程 实际 上 是 一 个 


X100 ， 即 高 度 是 128 个 像素 点 ， 
3.1.3 CNN 结构 参数 
CNN 的 参数 如 卷 积 池 化 单元 数量 、 
征 映射 数量 等 需 依据 实际 数据 集 的 调 参 来 确定 。 
CNN 结构 的 参数 设置 如 下 : 
a) 卷 积 池 化 单元 的 数量 n=4， 


步 长 、 卷 积 核 大 小 和 特 
经 实际 调 参 ， 


数量 设 为 32， 
b) 卷 积 L/N 


第 一 个 池 化 单元 的 特征 
而 后 三 个 池 化 单元 中 特征 
层 中 卷 积 核 大 小 为 5X5， 步 长 设 为 1X1， 


映射 
映射 的 数量 则 设置 为 64。 
同时 
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在 频率 方向 上 和 时 间 方 向 上 均 进行 卷 积 操作 。 增加 ， 三 种 网 络 模型 的 识别 准确 率 都 得 到 了 一 定 程度 的 提高 ， 
c) 池 化 层 中 , 池 化 区 域 的 大 小 设 为 1X1, 步 长 仍 为 1X1， 而 只 使 用 RNN 网 络 模型 的 识别 准确 率 最 低 。 在 后 端 使 用 相同 
仅 在 频率 方向 上 进行 池 化 。 的 RNN 网 络 的 前 提 下 ,前端 采 用 CNN 网 络 获得 的 识别 率 要 比 
3.1.4 Deep RNN 结构 参数 前 端 采用 DNN 网 络 的 识别 率 更 高 一 些 。 
Deep RNN 的 两 个 重要 参数 即 为 RNN 的 层 数 以 及 每 层 的 随后 将 网 络 模型 的 前 端 固 定 为 CNN 网 络 ， 后 端 则 分 别 为 
节点 数 。RNN 层 数 越 多 ， 识 别 说话 人 ID 的 能 力 就 越 强 ,但 层  DNN 和 RNN 网 络 ， 其 层 数 分 别 为 1、3、5， 每 层 的 节点 数 分 


数 多 意味 着 训练 开销 大 ， 并 较 易 产生 过 拟 合 现象 。 通 过 对 这 两 别 为 128、256 和 512， 得 到 的 结果 如 图 14 所 示 。 
个 参数 的 不 同 组 合 获得 不 同 的 RNN 结构 ， 并 测试 不 同 网 络 结 


构 下 的 识别 率 ， 选 择 识别 率 最 高 的 网 络 结构 对 应 的 RNN 层 数 100 CN dite IN 
和 每 层 节点 数 作为 Deep RNN 参数 。 —— GMM-DNN => CDRNN 


将 


如 图 11 所 示 ，RNN 的 层 数 分 别 为 1, 3, 5 和 7, 每 层 的 节 
点 数 则 为 128，256 和 512， 这 样 共 可 获得 12 种 组 合 ， 对 应 12 
个 网 络 模型 。 由 图 可 见 ， 随 着 RNN 层 数 的 增加 ， 系 统 的 识别 率 
基本 呈 上 升 趋势 。 类 似 地 ， 当 RNN 层 数 不 超过 5 时 , 每 层 的 节 
点 数 越 多 ， 识 别 率 也 就 越 高 。 但 是 RNN 层 数 为 7， 每 层 节 点 数 
为 512 时 ， 其 识别 率 反 而 低 于 每 层 节点 数 为 256 时 的 识别 率 。 10 2 说 话 人 数量 0 40 
这 说 明 并 非 层 数 和 每 层 节 点 数 越 多 ， 识 别 结果 就 越 好 。 其 原因 
在 于 随 着 层 数 和 每 层 节 点 数 的 增加 ， 参 数 数量 几何 级 数 上 升 ， 

而 训练 集 大 小 有 限 ， 就 容易 导致 过 拟 合 现象 。 基 于 实验 结果 ， 
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图 12 四 种 方案 的 性 能 比较 


三 个 深度 模型 不 同 的 说 证 人 特征 提取 方式 下 的 识别 率 对 比 
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将 RNN 层 数 设置 为 7， 而 每 层 节 点 数 设 置 为 256。 xj pale 
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图 13 RNN、DNN+RNN 和 CNN+RNN 模型 的 识别 率 
m 1 3 5 T 
不 同 的 RNN 层 数 
图 11 Deep RNN 中 不 同 网 络 参 数 的 识别 率 两 个 深度 村 型 不 辐 的 后 端 结构 下 的 识别 过 对 比 


3.2 ”实验 结果 

首先 比较 了 基于 CDRNN 、GMM-UBMIIIO、DNN07 和 

MM-DNN09 的 四 种 机 制 在 本 语音 数据 集 上 的 识别 准确 率 ， 结 

如 图 12 所 示 。 显 然 ， 随 着 说 话 者 人 数 的 增加 ， 四 种 机 制 的 识 

由 准 去 率 均 有 所 下 降 , 而 GMM-UBM 的 识别 率 下 降 非 常 快 , 这 

是 由 于 GMM-UBM 中 关键 参数 混合 度 的 取 值 对 结果 又 较 大 影 

响 。 而 CDRNN 的 识别 率 则 下 降 较 慢 ， 且 比 GMM-UBM 的 识 

别 率 高 约 18% 左 右 ， 特 别 是 在 说 话 人 数量 较 多 的 时 候 。 此 外 ， 

CDRNN 也 比 DNN 和 GMM-DNN 高 约 6%, 说 明 后 端 使 用 RNN 图 可 见 ， 识 别 率 同样 随 着 层 数 和 每 层 节点 数 的 增加 而 增 

后 ， 能 够 获得 比 使 用 DNN 更 好 的 结果 。 加 。 而 无 论 两 个 模型 的 后 端 网 络 的 层 数 、 每 层 的 节点 数 如 何 变 
本 质 上 ，CDRNN 使 用 的 是 CNN+RNN 这 样 的 前 后 端 网 络 。 化 ， 当 参数 相同 时 ，CNN+RNN 网 络 模型 获得 的 识别 率 要 笔 

模型 ， 前 端 是 CNN， 后 端 是 RNN。 将 CNN+RNN 的 网 络 模型 ” CNN+DNN 高 约 4% 左 右 ， 体 现 了 CNN+RNN 结构 的 优势 。 

和 仅 使 用 RNN 建 模 以 及 前 端 采 用 DNN、 后 端 使 用 RNN 的 深 

度 网 络 模型 进行 了 性 能 比较 。 

图 13 表示 了 上 述 三 个 模型 在 RNN 层 数 为 1、3、5, 每 层 节 本 文 利用 CNN 处 理 图 像 能 力 强 以 及 RNN 网 络 易于 对 时 序 

点 数 为 256 个 时 的 识别 准确 率 。 可 以 看 出 ， 随 着 RNN 层 数 的 ”数据 进行 建 模 的 特点 ， 提 出 了 CDRNN 机 制 ， 结 合 了 CNN 和 
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图 14 CNN+DNN 和 CNN-RNN 模型 的 识别 率 


4 ”结束 语 


RNN 的 优势 ， 将 其 用 于 声 纹 识别 应 用 。 通 过 真实 语音 数据 外 
利用 CDRNN 进行 训练 和 测试 ， 对 声 纹 识别 的 准确 率 高 于 其 他 


方案 。 


参考 文献 : 


mt 


[1] Jain A, Ross A, Prabhakar S. An introduction to biometric recognition [J]. 
IEEE Trans on Circuits & Systems for Video Technology, 2004, 14 (1): 4- 
20. 

[2] Furui S. Recent advances in speaker recognition [J]. Pattern Recognition 
Letters, 1997, 18 (9): 859-872. 

[3] Hermansky H. Perceptual linear predictive (PLP) analysis of speech [J]. 
Journal of the Acoustical Society of America, 1990, 87 (4): 1738-52. 

[4] Vergin R, O'Shaughnessy D, Farhat A. Generalized Mel frequency cepstral 
coefficients for large-vocabulary speaker-independent continuous-speech 
recognition [J]. IEEE Trans on Speech & Audio Processing, 1999, 7 (5): 
525-532. 

[5] Dutta T. Dynamic time warping based approach to text-dependent speaker 
identification using spectrograms [C] : Proc of the Congress on Image and 
Signal Processing, 2008. New York, USA, 2008: 354-360. 

[6] Gray R. Vector Quantization [J]. IEEE ASSP Magazine, 1990, 1 (2): 75-100. 

[7] Gardner M W, Dorling S. Artificial neural networks-a review of applications 
in the atmospheric sciences [J]. Atmospheric Environment, 1998, 32 (14— 
15): 2627-2636. 

[8] Jain A, Mao J, Mohiuddin K. Artificial neural networks: a tutorial [J]. 
Computer, 1996, 29 (3): 31-44. 

[9] Reynolds D, Rose R. Robust text-independent speaker identification using 
Gaussian mixture speaker models [J]. IEEE Trans on Speech & Audio 
Processing, 1995, 3 (1): 72-83. 

[10] Reynolds D, Quatieri T, Dunn R. Speaker Verification Using Adapted 
Gaussian Mixture Models [J]. Digital Signal Processing, 2000, 10 (1-3): 19- 
41. 

[11] Schmidhuber J. Deep learning in neural networks: an overview [J]. Neural 
Networks, 2014, 61 (3): 85-94. 

[12] Abdel-Hamid O, Mohamed A, Jiang H, et al. Applying convolutional neural 
networks concepts to hybrid NN-HMM model for speech recognition [C]// 
Proc of IEEE International Conference on Acoustics, Speech and Signal 


Processing. 2012: 4277-4280. 


am 4 


\ f ^ 
纹 识 别 方法 研 


( X iH - 
录用 稿 余 玲 飞 ， 等 : 基于 深度 循环 网 络 的 声 纹 识 j 


[13] Simonyan K, Zisserman A. Very Deep Convolutional Networks for Large- 
Scale Image Recognition [J]. Computer Science, 2014, 13 (2): 120-131. 

[14] Palaz D, Magimai M, Collobert R. Analysis of CNN-based speech 
recognition system using raw speech as input [C]// Proc of International 
Speech. 2015: 11-15. 

[15] Richardson F, Reynolds D, Dehak N. Deep neural network approaches to 
speaker and language recognition [J]. IEEE Signal Processing Letters, 2015, 
22 (10): 1671-1675. 

[16] Phapatanaburi K, Wang L, Sakagami R. Distant-talking accent recognition 
by combining GMM and DNN [J]. Multimedia Tools & Applications, 2016, 
75 (9): 5109-5124. 

[17] Kanagasundaram A, Dean D, Sridharan S, Fookes C. DNN based Speaker 
Recognition on Short Utterances [C]// Proc of Speaker & Language 
Recognition Workshop. 2016 

[18] Graves A, Mohamed A, Hinton G. Speech recognition with deep recurrent 
neural networks [C]// Proc of IEEE International Conference on Acoustics, 
Speech and Signal Processing. 2013: 6645-6649. 

[19] Sak H, Senior A, Beaufays F. Long short-term memory based recurrent 
neural network architectures for large vocabulary speech recognition [J]. 
Computer Science, 2014, 13 (8): 338-342. 

[20] Hochreiter S, Schmidhuber J. Long short-term memory [J]. Neural 
Computation, 1997, 9 (8): 1735-1780 

[21] TensorFlow [CP/OL]. http://www. tensorflow. org. 

[22] Wang Jiang, Yang Yi, Mao Junhua, et al. CNN-RNN: a unified framework 
for multi-label image classification [C]// Proc of IEEE Conference on 
Computer Vision and Pattern Recognition. 2016: 2285-2294 

[23] Fan Yin, Lu Xiangju, Li Dian, et al. Video-based emotion recognition using 
CNN-RNN and C3D hybrid networks [C]// Proc of the 18th ACM 
International Conference on Multimodal Interaction. 2016: 445-450 

[24] Jiang Haohao, Lu Yao, Xue Jing. Automatic soccer video event detection 
based on a deep neural network combined CNN and RNN [C]// Proc of the 
28th IEEE International Conference on Tools with Artificial Intelligence. 
2016: 490-494 

[25] 林琳 ， 陈 虹 ， 陈 建 . 基于 鲁 棒 听觉 特征 的 说 话 人 识别 D] 电子 学 报 ， 
2013, 41 (3): 619-625. 

[26] € iE, 余 丽 珍 . 基于 MFCC 和 运动 强度 聚 类 初始 化 的 多 说 话 人 识别 [T]. 


计算 机 应 用 研究 , 2012, 29 (9): 3295-3298. 


